Не так давно мы писали о функции Site Locality в кластере VMware vSAN и некоторых ситуациях, когда эту функцию полезно отключать. Недавно Дункан Эппинг еще раз вернулся к этой теме и рассказал, что при использовании растянутых кластеров VMware vSAN надо иметь в виду некоторые особенности этого механизма.
При создании растянутого кластера вам предоставляют опции по выбору уровня защиты данных RAID-1 или RAID-5/6 средствами политики FTT (Failures to tolerate), а также позволяют определить, как машина будет защищена с точки зрения репликации ее хранилищ между датацентрами.
Некоторые дисковые объекты машин вы можете исключить из растянутого кластера и не реплицировать их между площадками. Такая настройка в HTML5-клиенте выглядит следующим образом:
В старом интерфейсе vSphere Web Client это настраивается вот тут:
Смысл настройки этих политик для виртуальной машины в том, чтобы вы могли однозначно определить размещение ее дисковых объектов, так как если у нее несколько виртуальных дисков VMDK, то если вы не зададите их локацию явно - может возникнуть такая ситуация, когда диски одной машины размещаются в разных датацентрах! Потому что при развертывании ВМ решение о размещении принимается на уровне дисковых объектов (то есть на уровне виртуальных дисков), которые по каким-то причинам могут разъехаться в разные сайты, если вы выберите первый пункт на первом скриншоте.
Это, конечно же, со всех сторон плохо, особенно с точки зрения производительности.
Если такая машина работает не в растянутом кластере vSAN, то в случае, если произойдет разрыв между площадками - часть дисков в гостевой системе станет недоступна, что неприемлемо для приложений и ОС.
Поэтому всегда убеждайтесь, что машина и ее дисковые объекты всегда находятся на одном сайте, для этого задавайте их локацию явно:
Не смогли в этом году присутствовать на VeeamON Forum 2019 в Москве? Присоединяйтесь онлайн!
VeeamON Forum Москва 2019 - крупнейший форум по интеллектуальному управлению данными - состоится 6 июня.
В программе:
Выступления Дэниэла Фрида, генерального директора и старшего вице-президента в регионе EMEA, и Василия Ваганова, вице-президента по Восточной Европе, России, СНГ и странам Ближнего Востока.
Представители Hewlett Packard Enterprise, NetApp, Lenovo, PureStorage, Nutanix расскажут об эволюции в управлении данными.
Технические сессии, включая обзор архитектуры, планирования и установки для Veeam Backup for Microsoft Office 365, тонкости проектирования комплексной платформы Veeam с более 25.000 виртуальных машин, и многое другое.
Те, кто используют серверы HPE ProLiant с гипервизором VMware ESXi и пакетом управления HPE Agentless Management (AMS) для кастомизированных образов ESXi от HP, могут столкнуться со следующим сообщением об ошибке в клиенте vSphere Client:
The ramdisk 'tmp' is full
Выглядит это чаще всего вот так:
Проблема актуальна для всех версий VMware ESXi 6.0, VMware ESXi 6.5 и VMware ESXi 6.7 с пакетом Agentless Management Service (AMS) версии 11.4.0.
Если зайти в консоль ESXi и выполнить там команду vdf, то можно увидеть, что раздел /tmp заполнен на 99%:
В самом же разделе tmp есть файлик ams-bbUsg.txt, который и является источником проблем:
Для временного решения этой проблемы нужно просто удалить этот файлик, и сообщения об ошибке прекратятся. Но чтобы этого не происходило, надо обновить ваш пакет HPE Agentless Management (AMS) версии 11.4.0, где проявляется данная проблема, на версию 11.4.2. О том, как это сделать написано в статье базы знаний HP:
Вчера мы писали об ограничениях технологии Persistent Memory в vSphere 6.7, которая еще только изучается пользователями виртуальных инфраструктур на предмет эксплуатации в производственной среде. Преимущество такой памяти - это, конечно же, ее быстродействие и энергонезависимость, что позволяет применять ее в высокопроизводительных вычислениях (High Performance Computing, HPC).
Ну а пока все это изучается, сейчас самое время для проведения всякого рода тестирований.
NVDIMM-N от компаний DELL EMC и HPE. NVDIMM-N - это такой тип устройств DIMM, который содержит модули DRAM и NANDflash на самом DIMM. Данные перемещаются между двумя этими модулями при запуске или выключении машины, а также во время внезапной потери питания (на этот случай есть батарейки на плате). На текущий момент есть модули 16 GB NVDIMM-Ns.
Intel Optane DC persistent memory (DCPMM) - эта память не такая быстрая как DRAM и имеет бОльшие задержки, но они измеряются наносекундами. Модули DCPMM изготавливаются под разъем DDR4 и доступны планками по 128, 256 и 512 ГБ. В одной системе может быть до 6 ТБ памяти DCPMM.
Для тестирования производительности такой памяти были использованы следующие конфигурации тестовой среды:
При тестировании производительности ввода-вывода были сделаны следующие заключения:
Накладные расходы на поддержку PMEM составляют менее 4%.
Конфигурация vPMEM-aware (когда приложение знает о vPMEM устройстве) может дать до 3x и более прироста пропускной способности в смешанном потоке чтения-записи в сравнении с традиционными устройствами vNVMe SSD (они использовались в качестве базового уровня).
Задержки (latency) на уровне приложений для конфигураций vPMEM составили менее 1 микросекунды.
Также тестировалась производительность баз данных Oracle, и там были сделаны такие выводы:
Улучшение на 28% в производительности приложения (количество транзакций HammerDB в минуту) с vPMEM по сравнению с vNVME SSD.
Увеличение 1.25x DB reads, 2.24x DB writes и до 16.6x в числе записей в DB log.
До 66 раз больше уменьшение задержек при выполнении операций в Oracle DB.
В MySQL тоже весьма существенное улучшение производительности:
Для PMEM-aware приложений тоже хорошие результаты:
Ну а остальные детали процесса проведения тестирования производительности устройств PMEM вы найдете в документе VMware.
Компания StarWind Software известна пользователям как производитель лучшего в отрасли программного решения Virtual SAN для создания отказоустойчивых хранилищ на базе хост-серверов виртуализации VMware vSphere и Microsoft Hyper-V. StarWind иногда выпускает бесплатные утилиты для администраторов виртуальных инфраструктур, и сегодня мы поговорим об очередной новинке - StarWind iSCSI Accelerator...
Недавно мы писали об утилите для тестирования производительности хранилищ HCIBench 2.0, которая помогает администраторам VMware vSphere валидировать конфигурацию кластера с точки зрения соответствия требованиям к производительности подсистемы хранения для приложений датацентра.
HCIBench используется для проведения синтетических тестов кластера хранилищ, когда нагрузка распределяется по нескольким виртуальным машинам на разных хостах ESXi. Генерация операций ввода-вывода происходит одновременно с разных ВМ согласно заранее определенному шаблону нагрузки.
А зачем вообще проводить тестирование кластера vSAN? Тут, как правило, есть следующие причины:
Понимание возможностей инфраструктуры хранения и возможность убедиться в том, что в ней нет аномалий.
Валидировать дизайн кластера vSAN с точки зрения приемо-сдаточных испытаний (User Acceptance Testing, UAT).
Получить референсные значения, с которыми можно будет сверяться при внесении существенных изменений в архитектуру vSAN.
Проведение тестов перед внедрением (PoC-проекты).
Установление базового уровня пользовательских ожиданий после развертывания приложений.
По итогу тестирования производительности хранилищ vSAN вы должны получить ответы на следующие вопросы:
Какого наибольшего числа операций ввода-вывода в секунду (IOPS) можно добиться?
Какая ожидаемая задержка выполнения операций (latency) при требуемом числе IOPS для рабочей нагрузки?
Какая максимальная пропускная способность операций чтения-записи (throughput)?
То есть результаты тестирования держатся на трех китах - IOPS, latency и throughput.
При проведении тестов нужно отключать все тормозящие технологии, такие как дедупликация и компрессия данных, а также шифрование на уровне кластера vSAN.
IOPS
Число выдаваемых IOPS зависит как от используемого оборудования для хостов и сетевых компонентов, так и от архитектуры системы. Актуальное число IOPS также зависит от уровня RAID в кластере vSAN, числа сетевых соединений между хостами, их загрузки и прочих факторов.
Обычно начинают тестирование с нескольких тредов на дисковый объект, а затем постепенно увеличивают это количество тредов, пока число выдаваемых IOPS не прекратит расти. При проведении тестирования число IOPS коррелирует с Latency, так как при увеличении одной операции ввода-вывода (размер блока операции) уменьшается число выдаваемых IOPS, а также увеличивается latency.
Latency
Обычно задержку измеряют в миллисекундах со стороны приложений, которые выполняют определенные операции. При этом, зачастую, нет каких-то референсных значений, их приходится выяснять экспериментальным путем (насколько это устраивает пользователей).
К увеличению задержек при выполнении операций приводят увеличение блока ввода-вывода, соотношение операций чтения и записи, одновременность исполнения операций ввода-вывода со стороны нескольких виртуальных машин и т.п.
Throughput
Пропускная способность важна при выполнении больших операций ввода-вывода, а также при различных паттернах чтения записи (последовательный/случайный). Чем больше размер I/O, тем очевидно больше пропускная способность. С точки зрения объема передаваемых данных одна операция I/O размером 256К равна 64 операциям ввода-вывода по 4К, но вот с точки зрения throughput это будут совершенно разные значения, так как займут разное время.
Методология тестирования хорошо описана в документации по HCIBench, а также вот в этой статье на русском языке. Работа с утилитой начинается по ссылке https://<HCIBench IP address>:8443.
Перед началом тестирования можно задать параметры среды - число виртуальных машин для кластера, количество их виртуальных дисков и их размер. Для ленивых есть параметр Easy Run, который позволит автоматически подобрать эту конфигурацию, исходя из размера кластера vSAN и параметров хостов ESXi:
Очень важно при тестировании также задать правильный профиль рабочей нагрузки (4 варианта на картинке выше).
После выполнения теста Easy Run вы получите выходной файл с результатами вроде vdb-8vmdk-100ws-4k-70rdpct-100randompct-4threads-xxxxxxxxxx-res.txt. Из имени файла можно понять использованную тестовую конфигурацию (она также будет в самом файле):
Также в папке с результатами тестирования будет подпапка с отдельными файлами, где хранятся результаты самих тестов:
Если открыть один их этих файлов, мы увидим детальные параметры производительности различных компонентов среды vSAN:
Полученные параметры можно считать базовым уровнем для тестирования производительности кластера. Теперь нужно увеличивать параллелизм, то есть число тредов Outstanding I/O (OIO), для выжимки оптимальной производительности. Увеличение этого параметра будет увеличивать число IOPS, а также, как следствие, будет расти Latency. Так вы сможете понять, как инфраструктура хранения ведет себя в динамике, реагируя на изменение профиля нагрузки.
Чтобы изменить параметр OIO, нужно отключить Easy Run и в профиле рабочей нагрузки нажать Add:
Также для измерения пропускной способности вы можете поэкспериментировать с размером операции ввода-вывода. Современные ОС поддерживают размер I/O в диапазоне 32K - 1 MB, но для тестирования лучше использовать I/O в диапазоне 32K – 256K.
Еще какие моменты надо учитывать при тестировании:
Синтетическое тестирование не учитывает, что профиль рабочей нагрузки в кластере в реальной жизни постоянно изменяется точки зрения соотношения операций чтения и записи и их рандомизации в потоке ввода-вывода. Используемая модель - всего лишь аппроксимация.
Тесты ориентированы на отслеживание характеристик хранилищ, а не загрузки CPU и памяти хостов ESXi.
Мы много пишем о решении для организации отказоустойчивых хранилищ на базе хостов ESXi - платформе VMware vSAN. Сегодня мы расскажем о дисковых группах на основе вот этого поста на блогах VMware.
Архитектура vSAN включает в себя два яруса - кэш (cache tier) и пространство постоянного хранения (capacity tier). Такая структура дает возможность достичь максимальной производительности по вводу-выводу, которая абсолютно необходима в кластере хранилищ на базе хостов.
Чтобы управлять отношениями устройств кэша и дисков хранения, решение vSAN использует дисковые группы:
У дисковых групп есть следующие особенности:
Каждый хост, который дает емкость кластеру vSAN, должен содержать как минимум одну дисковую группу.
Дисковая группа содержит как минимум одно устройство для кэша и от 1 до 7 устройств хранения.
Каждый хост ESXi в кластере vSAN может иметь до 5 групп, а каждая группа - до 7 устройств хранения. То есть на хосте может быть до 35 устройств хранения, чего вполне достаточно для подавляющего большинства вариантов использования.
Неважно, используете ли вы гибридную конфигурацию (SSD и HDD диски) или All-Flash, устройство кэширования должно быть Flash-устройством.
В гибридной конфигурации устройства кэша на 70% используются как кэш на чтение (read cache) и на 30% как кэш на запись (write buffer).
В конфигурации All-Flash 100% устройства кэша выделено под write buffer.
Write buffer и capacity tier
В принципе, всем понятно, что гибридная конфигурация хостов ESXi в кластере vSAN более дешевая (HDD стоит меньше SSD), но менее производительная, чем All-Flash. Но когда-то наступит время, и все будет All-Flash (в них, кстати, еще и нет нужды организовывать кэш на чтение, так как все читается с SSD с той же скоростью). Поэтому и выделяется 100% под write buffer.
При этом если операция чтения в All-Flash хосте находит блок в кэше - то он читается именно оттуда, чтобы не искать его в capacity tier. Максимальный размер write buffer на одной дисковой группе хоста ESXi - 600 ГБ. При этом если сам диск более 600 ГБ, то его емкость будет использоваться с пользой (см. комментарий к этой статье).
Для гибридных конфигураций 70% емкости кэша выделяется под кэш на чтение, чтобы быстро получать данные с производительных SSD-устройств, при этом vSAN старается поддерживать коэффициент попадания в кэш на чтение (cache hit rate) на уровне 90%.
Write buffer (он же write-back buffer) подтверждает запись на устройство хранения еще до актуальной записи блоков на сapacity tier. Такой подход дает время и возможность организовать операции записи наиболее эффективно и записать их на сapacity tier уже пачкой и более эффективно. Это дает существенный выигрыш в производительности.
SSD-устройства бывают разных классов, в зависимости от их выносливости (среднее число операций записи до его отказа). Все понятно, что для кэширования нужно использовать устройства высоких классов (они дорогие), так как перезапись там идет постоянно, а для хранения - можно использовать недорогие SSD-диски.
Вот сравнительная таблица этих классов (колонка TBW - это terabytes written, то есть перезапись скольких ТБ они переживут):
vSAN содержит в себе несколько алгоритмов, которые учитывают, как часто write buffer сбрасывает данные на сapacity tier. Они учитывают такие параметры, как емкость устройств, их близость к кэшу по времени записи, число входящих операций ввода-вывода, очереди, использование дискового устройства и прочее.
Организация дисковых групп
При планировании хостов ESXi в кластере vSAN можно делать на нем одну или более дисковых групп. Несколько дисковых групп использовать предпочтительнее. Давайте рассмотрим пример:
Одна дисковая группа с одним кэшем и 6 устройств хранения в ней.
Две дисковых группы с двумя устройствами кэша, в каждой по 3 устройства хранения.
Если в первом случае ломается SSD-устройство кэша, то в офлайн уходит вся дисковая группа из 6 дисков, а во втором случае поломка одного девайса приведет к выходу из строя только трех дисков.
Надо понимать, что этот кейс не имеет прямого отношения к доступности данных виртуальных машин, которая определяется политикой FTT (Failures to tolerate) - о ней мы подробно рассказывали тут, а также политиками хранилищ SPBM. Между тем, размер домена отказа (failure domain) во втором случае меньше, а значит и создает меньше рисков для функционирования кластера. Также восстановление и ребилд данных на три диска займет в два раза меньше времени, чем на шесть.
Кстати, некоторые думают, что в случае отказа дисковой группы, кластер vSAN будет ждать 60 минут (настройка Object Repair Timer) до начала восстановления данных на другие диски согласно политике FTT (ребилд), но это неверно. Если вы посмотрите наш пост тут, то поймете, что 60 минут vSAN ждет в случае APD (All Paths Down - например, временное выпадение из сети), а вот в случае PDL (Physical Device Loss) восстановление данных на другие дисковые группы начнется немедленно.
С точки зрения производительности, иметь 2 дисковые группы также выгоднее, чем одну, особенно если разнести их по разным контроллерам хранилищ (storage controllers). Ну и это более гибко в обслуживании и размещении данных на физических устройствах (например, замена диска во втором примере пройдет быстрее).
Работа операций ввода-вывода (I/O)
Как уже было сказано, в гибридной конфигурации есть кэши на чтение и на запись, а в All-Flash - только на запись:
При этом хост ESXi работает так, чтобы операции чтения с дисков попадали в кэш на чтение в 90% случаев. Остальные 10% операций чтения затрагивают HDD-диски и вытаскивают блоки с них. Но и тут применяются оптимизации - например, одновременно с вытаскиванием запрошенного блока, vSAN подтягивает в кэш еще 1 МБ данных вокруг него, чтобы последовательное чтение проходило быстрее.
Для All-Flash конфигурации кэш на чтение не нужен - все данные вытаскиваются с примерно одинаковой скоростью, зато все 100% кэша используются под write buffer, что дает преимущество в скорости обработки большого входящего потока операций ввода-вывода.
Ну и напоследок отметим, что vSAN при записи на флэш-диски распределяет операции записи равномерно между ячейками независимо от размера диска. Это позволяет диску изнашиваться равномерно и иметь бОльшую наработку на отказ.
Компания StarWind хорошо всем вам известна как лидер отрасли в сфере производства программных и программно-аппаратных хранилищ под инфраструктуру виртуализации. В частности, одно из самых популярных решений StarWind Virtual SAN позволяет создать отказоустойчивый кластер хранилищ для виртуальных машин на базе всего двух серверов.
Эти серверы могут исполнять как вычислительную нагрузку для ВМ, так и предоставлять ресурсы хранения. Когда все аспекты инфраструктуры объединяются в единую систему управления, такая инфраструктура называется гиперконвергентной (Hyperconverged Infrastructure, HCI).
Недавно компания StarWind анонсировала HCI-решение Command Center, которое позволит из единого интерфейса осуществлять мониторинг виртуальной среды на базе хранилищ Virtual SAN, а также управлять ею.
Command Center - это веб-интерфейс, построенный на базе технологии HTML5, который дает средства для управления виртуальными машинами и хост-серверами виртуализации, где для каждой из сущностей доступно до 100 различных параметров настройки. Единая панель управления инфраструктуры HCI позволяет выполнять ежедневные операции до 5 раз быстрее по сравнению с использованием нескольких консолей.
С помощью Command Center можно будет не только управлять сущностями виртуальной инфраструктуры, но и контролировать такие процессы, как оркестрация операций, резервное копирование Veeam Backup & Replication и многое другое.
Только 5% функционала Command Center приходится на решение Virtual SAN, остальное - это управление гипервизорами, резервным копированием, инфраструктурой публичных облаков и прочими аспектами. Кстати, Command Center будет поддерживать различные гипервизоры - VMware vSphere, Microsoft Hyper-V, Red Hat KVM и, возможно, другие платформы.
С продуктом можно будет опционально докупить StarWind ProActive Support - она позволит собирать телеметрию с компонентов Command Center и на основе аналитики на стороне StarWind (ML/DL) выявлять причины возникающих проблем.
Если вы только планируете попробовать решение для создания отказоустойчивых кластеров хранилищ VMware vSAN на базе хостов ESXi, то для вас может оказаться полезной вот эта заметка. Приведем ее суть вкратце.
Когда вы планируете кластер vSAN, вам нужно определиться с политикой FTT (Failures to Tolerate) - она определяет, какое количество отказов хостов может пережить кластер хранилищ. Если установлено значение 1 (по умолчанию), то реплика одного VMDK будет размещена на дисках еще одного из хостов кластера.
Также при создании SPBM-политики хранилищ vSAN вы определяете уровень RAID (1, 5 или 6), в который виртуально будут собираться хосты ESXi на уровне дисковых объектов:
Иногда этот уровень RAID также называется FTM (Failure Tolerance Method).
vSAN - это объектное хранилище, где объекты состоят из компонентов. В состав компонентов входят реплики (Replicas - они содержат данные) и Witness (там находятся метаданные, чтобы избежать ситуации split-brain в кластере).
Есть три типа объектов на хранилище vSAN:
VM Home (домашняя директория)
VM Swap (файлы подкачки)
VM Disk (диски с данными)
На хостах ESXi при этом размещаются компоненты для каждого из объектов в соответствии с заданной политикой SPBM:
FTM, то есть способ размещения данных на хостах ESXi, как мы сказали выше, может быть:
RAID-1 (Mirroring, то есть зеркалирование объектов на хостах).
RAID-5/6 (оно же Erasure Coding - алгоритм кодирования с коррекцией ошибок).
Таким образом, в зависимости от FTT вам понадобится следующее минимальное количество хостов ESXi для RAID-1:
FTT
Число реплик
Компоненты Witness
Минимальное число хостов
0
1
0
1
1
2
1
3
2
3
2
5
3
4
3
7
Для RAID-5/6 вам потребуется вот такое минимальное число хостов ESXi:
FTT
Алгоритм Erasure coding
Схема избыточности
Минимальное число хостов
0
Нет
Без избыточности
1
1
RAID-5
3D+1P
4
2
RAID-6
4D+2P
6
3
Не применимо
Не применимо
Не применимо
При этом вы должны учитывать, что по-хорошему нужно добавить еще один запасной хост ESXi в кластер, так как при отказе одного из хостов при значениях из таблиц выше, вы потенциально попадаете в ситуацию, где отказ еще одного хоста может привести к потере данных. Особенно это нужно сделать, когда вы понимаете, что при отказе хоста ESXi ввести в строй новый займет продолжительное время.
Недавно компания VMware выпустила новую версию платформы виртуализации VMware vSphere 6.7 Update 2. Довольно много новых возможностей появилось в функциональности управляющего сервера VMware vCenter 6.7 Update 2. Давайте посмотрим, что именно с картинками и анимированными гифками:
С момента последних обновлений, инфраструктура отказоустойчивых хранилищ VMware vSAN теперь нативно поддерживает кластеры Microsoft SQL Server. На данный момент эта поддержка реализована только в облачной IaaS-инфраструктуре VMware Cloud on AWS версии 1.6, но скоро она появится и в онпремизной инфраструктуре VMware vSphere.
Суть поддержки заключается в том, что теперь облачный vSAN работает с командами SCSI-3 Persistent Reservation (SCSI3-PR), которые обеспечивают доступ к общим дискам на физическом уровне абстракции.
Таким образом, пользователи SQL Server не нуждаются в перепроектировании их Availability Groups, а могут просто перенести свои кластеры БД в облако.
Чтобы построить SQL Server Cluster нужно расшарить общий диск между его узлам таким образом, чтобы каждый из узлов мог управлять устройством на физическом уровне. Этот подход описан в документе о SCSI-3 Persistent Reservation (SCSI3-PR).
Для включения поддержки SCSI3-PR для выбранного виртуального диска машины нужно:
Выставить режим диска в Independent – Persistent.
Виртуальный диск должен быть привязан к SCSI-контроллеру, для которого параметр SCSI Bus Sharing выставлен в Physical.
Для управления устройством Shared Disk и его Persistent Reservations имеет смысл создать отдельную политику хранилищ в целях лучшей управляемости.
На данный момент для такой инфраструктуры поддерживаются кластеры SQL Server Clusters 2012 и более свежие, работающие на платформе Windows Server 2012 и более свежей. С точки зрения лимитов, поддерживается до 8 узлов SQL Server на кластер и до 64 устройств на узел.
Когда вы используете общий диск, поскольку узлы должны иметь к нему прямой доступ как бы на физическом уровне, вы не сможете использовать такие технологии, как vMotion, снапшоты, клонирование ВМ и прочие.
Вот как создается общий диск с описанными настройками:
Далее такой диск нужно подключить ко всем узлам SQL Server кластера:
Надо понимать, что важно не только настроить серверы SQL, но и саму среду vSAN, в зависимости от характера ваших нагрузок (какие-то базы данных требуют высокой производительности, какие-то большой дисковой емкости и т.п.).
Давайте посмотрим, что это за базовые рекомендации:
1. Общие рекомендации.
Включайте дополнительный хост ESXi к результатам сайзинга по схеме n+1 на случай отказа диска, дисковой группы или всего хоста в целом.
Имейте хороший запас по пропускной способности сети для трафика vSAN, рекомендуется использовать 10G сеть с выделенной полосой для трафика синхронизации. Для All-Flash vSAN это обязательное требование. И не забывайте о резервировании каналов.
Имейте как минимум 2 дисковых группы на хост - это может увеличить полосу пропускания во многих случаях, а также обеспечивает лучшую отказоустойчивость.
Службы vSAN на уровне кластера:
vSAN Performance service (включен по умолчанию в vSAN 6.7) предоставляет метрики производительности в сторонние системы, такие как vRealize Operations, что позволяет эффективно мониторить и решать проблемы.
Вы можете использовать шифрование data at rest (FIPS 140-2 compliant), это не влияет на производительность по IOPS, но дает нагрузку на CPU, поэтому лучше использовать процессоры с поддержкой возможности AES-NI. Для end-to-end шифрования используйте туннели IPSEC. Если нужно зашифровать только отдельную БД, используйте SQL Server native encryption.
vSAN 6.7 поддерживает SCSI-3 persistent reservations для общих дисков при использовании SQL Server FCI. Для этого на уровне кластера надо включить службу vSAN iSCSI Target.
Настройте политики SPBM для данных SQL Server:
Политика Failures to tolerate (FTT): убедитесь, что выставлено как минимум значение 1, не используйте опцию "No data redundancy".
Политика Number of disk stripes per object: используйте значение по умолчанию (1) и подумайте о разделении данных между разными дисками VMDK, привязанными к разным контроллерам vSCSI.
Политика IOPS limit per object: vSAN 6.2 и более поздние версии имеют возможности QoS, которые могут ограничить IOPS, потребляемые дисковым объектам. Не используйте эту политику для задач, требовательных к нагрузкам. Эта фича используется, как правило, для операций резервного копирования и восстановления, чтобы предотвратить забитие полосы пропускания этими задачами.
2. Рекомендации для нагрузок Tier-1 (высоконагруженные OLTP-базы).
Как правило, такие нагрузки по вводу-выводу включают запросы с множественным позиционированием точек записи в базе данных, активность по сбросу грязных страниц кэша на диск, а также запись транзакционного лога. Размер операции ввода-вывода небольшой - в диапазоне 8K - 64K. Можно использовать бенчмарки TPC-E для воспроизведения паттернов OLTP-подобных нагрузок.
Рассмотрите возможность использования All-flash vSAN.
Используйте как минимум диски SAS SSD (а не SATA SSD) - у них больше глубина очереди. Также подумайте о технологии NVMe.
Отключайте дедупликацию и компрессию данных, которые включены в vSAN по умолчанию. Лучше использовать компрессию таблиц на уровне базы данных.
Для object space reservation установите "Thick provisioning" для всех VMDK с данными SQL Server и логами. Это позволит не натолкнуться на проблему нехватки места при использовании тонких дисков. Также в опциях SQL Server лучше установить настройку Perform maintenance tasks, чтобы инициализировать файлы с данными сразу же. Также выделите сразу место под лог БД, чтобы не натолкнуться на недостаток места в гостевой ОС, либо установите настройку его роста в ГБ, а не в процентах.
Не используйте IOPS limit for object.
Используйте RAID-1 mirroring и как минимум FTT=1 для для VMDK-дисков с данными и логом.
Если вы используете дополнительные методы отказоустойчивости, такие как Always On Availability Groups, то вам может потребоваться увеличить FTT. Делайте это не только с точки зрения доступности, но и с точки зрения производительности. Вы можете комбинировать отказоустойчивость Availability Groups на уровне приложения с отказоустойчивостью на уровне дисковой подсистемы.
Если вам требуется доступность SQL между площадками, можно использовать архитектуру растянутых кластеров (vSAN Stretched Cluster).
Подумайте о коммутаторах для трафика vSAN. Оптимально использовать кластеры all-NVMe vSAN, тогда операции ввода вывода будут быстро передаваться между дисковыми устройствами без участия физических контроллеров. Также лучше использовать 10G-коммутаторы Enterprise-уровня с большими размерами буфера (non-shared), чтобы обеспечить работу с плотным потоком ввода-вывода.
2. Рекомендации для нагрузок Tier-2 (высоконагруженные OLTP-базы).
Это нагрузки от которых не требуется экстремальной производительности, поэтому они должны быть эффективными с точки зрения стоимости. Тут актуальны следующие рекомендации:
Для гибридной среды vSAN (микс HDD+SSD) рекомендуется следующее:
Используйте несколько дисковых групп для увеличения пропускной способности.
Имейте как минимум 10% от емкости данных для пространства кэширования на SSD. Также рекомендуется использовать объем SSD-емкости как минимум в два раза больший, чем рабочий набор данных (working data set).
Используйте, по возможности, устройства SAS SSD вместо SATA SSD.
Если вы используете конфигурацию All-flash vSAN, то:
Используйте дедупликацию и компрессию, если у приложений нет высоких требований по операциям записи.
Если хотите экономить место и не требуется большой производительности, то используйте конфигурацию RAID 5/6 erasure coding, но для транзакционных логов используйте VMDK-диски, размещенные на RAID 1.
Для object space reservation установите "Thick provisioning" для всех VMDK с данными SQL Server и логами.
3. Нагрузки типа Data Warehouse и серверов отчетов (Reporting).
Для таких нагрузок характерен большой размер операции ввода-вывода, так как происходит запрос большого объема данных из БД. Критичной метрикой здесь является не IOPS, а пропускная способность (MB/s). Для генерации таких нагрузок могут быть использованы бенчмарки TPC-H.
Тут приводятся следующие рекомендации:
Для конфигураций All-flash лучше использовать NVMe SSD для хранилищ данных, это даст хорошую производительность по большим операциям чтения.
Для конфигураций All-flash в целях экономии места используйте RAID 5/6 для VMDK с данными БД.
Преаллоцируйте пространство для логов SQL Server, чтобы не натолкнуться на проблему нехватки места.
Не используйте IOPS limit for object, это может ограничить полосу пропускания.
Лучше использовать 10G-коммутаторы Enterprise-уровня с большими размерами буфера (non-shared), чтобы обеспечить работу с плотным потоком ввода-вывода и выдать хорошую пропускную способность.
Полтора года назад мы писали о PowerCLI-сценарии, который решает проблему того, что права доступа пользователей (Entitlements) не синхронизированы при резервировании серверов App Volumes Managers и баз данных SQL Server на запасной площадке, что влечет за собой проблемы доступа при переключении в случае сбоя.
При этом данный скрипт не реплицировал данные томов AppStacks, которые можно перенести обычным копированием (также можно автоматизировать этот процесс за счет настройки Storage Groups, как это описано в документе "App Volumes Deployment Considerations").
На днях на сайте проекта VMware Labs появилась GUI-обертка к данному процессу, которая называется App Volumes Entitlement Sync. С помощью нее можно прочитать, сравнить и синхронизировать права доступа к объектам между экземплярами App Volumes на географически разделенных площадках:
После аутентификации на обеих площадках вы сможете выбрать права доступа, которые надо сравнить или синхронизировать:
Перед выполнением синхронизации вам покажут, что именно будет сделано на обеих площадках:
По результатам синхронизации заполняется лог:
Процесс работы с утилитой показан в видео ниже:
Скачать App Volumes Entitlement Sync можно по этой ссылке. Документация доступна тут.
На сайте проекта VMware Labs обновилась полезная утилита HCIBench до версии 2.0, которая позволяет
провести комплексный тест производительности отказоустойчивых кластеров хранилищ Virtual SAN, а также других конфигураций виртуальной инфраструктуры. Напомним, что об этой утилите мы писали больше двух лет назад вот тут.
Проект HCIbecnh ("Hyper-converged Infrastructure Benchmark") является оберткой для известного open source теста VDbench, он позволяет организовать автоматизированное тестирование гиперконвергентного кластера (HCI-кластера). Гиперконвергентный кластер - это когда все его вычислительные ресурсы, системы хранения и сети виртуализованы и собраны в единую интегрированную сущность и управляются из одной точки.
Целью такого тестирования может быть, например, необходимость убедиться, что развернутая инфраструктура обеспечивает достаточную производительность для планируемой на нее нагрузки.
Суть работы HCIbench проста - пользователь задает параметры работы скрипта, а утилита дает команду Vdbench, какие действия необходимо выполнить в кластере хранилищ.
Давайте посмотрим, что нового появилось во второй версии HCIBench:
В качестве генератора рабочей нагрузки добавлена модель fio (Flexible I/O).
Для мониторинга рабочих нагрузок в реальном времени используется решение Grafana.
Пользовательский интерфейс теперь сделан на визуальном фреймворке Clarity, как и другие продукты VMware (например, vSphere Client на базе HTML5).
Пользователь может выбрать от одного до четырех вариантов использования при выборе метода easy-run.
Множество исправлений ошибок.
Вот так выглядит новый UI на Grafana в части мониторинга в реальном времени:
А вот так выглядит интерфейс конфигурации продукта на базе Clarity:
Часто администраторы виртуальной инфраструктуры VMware vSphere и отказоустойчивых кластеров VMware vSAN задаются вопросом, а как найти тот или иной диск vSAN в физическом сервере?
Иногда такую информацию можно получить с помощью следующей команды:
esxcli storage core device physical get -d <device id>
Вывод будет выглядеть следующим образом:
Исполнять эту команду для каждого из дисков достаточно проблематично, особенно учитывая, что нужно еще предварительно получить id устройства.
Также эту информацию можно посмотреть в разделе Cluster > Configure > vSAN > Disk Management, выбрав режим показа дисков "By Disk Vendors":
Но это тоже неудобно, хотелось бы такую информацию получать через PowerCLI. Информацию о дисковых устройствах можно получить с помощью командлета Get-ScsiLun, который выдает адаптер, к которому подключен диск, а также является ли он SSD-устройством, подходит ли для vSAN и другое. Но, к сожалению, он не дает данных об enclosure для этого диска, поэтому дополнительно нужно воспользоваться командлетом Get-EsxCli, который добавит эту информацию.
Таким образом, VMware предлагает использовать вот такой сценарий PowerCLI, который выведет информацию о физических устройствах, их нахождении в enclosure и слоте, а также типе дисков и их емкости:
Сам сценарий доступен по этой ссылке: https://code.vmware.com/samples/5539 (кстати, обратите внимание, что на портале VMware Code можно найти еще много чего интересного).
На днях компания VMware (помимо анонса серверной платформы vSphere 6.7 Update 2) анонсировала и скорую доступность продукта VMware vRealize Operations 7.5, предназначенного для комплексного управления и мониторинга виртуальной инфраструктуры. Напомним, что о прошлой версии этого решения - vROPs 7.0 - мы писали вот тут. Давайте посмотрим, что нового появилось в vROPs версии 7.5.
Основное улучшение в этой категории заключается в новом механизме по оптимизации инфраструктуры отказоустойчивых кластеров хранилищ vSAN. Движок vROPs теперь предлагает оптимизации с учетом знаний о процессах синхронизации/ресинхронизации, мониторинга свободного пространства и действующих политиках хранилищ.
После анализа кластеров vSAN администратор может выбрать ручной режим оптимизации, запланировать ее на конкретное время, либо запустить оптимизацию в автоматическом режиме и смотреть, какие именно операции выполняются в фоновом режиме.
2. Улучшения механизма управления емкостями датацентра.
Здесь произошел возврат к модели выделенных ресурсов (allocation) взамен модели потребляемых ресурсов (demand). Последняя оказалась эффективной только для небольших инфраструктур, а планирование больших датацентров лучше делать по номинальным значениям аппаратных запросов ВМ.
При этом для администратора на дэшборде Capacity параметры Allocation и Demand приведены рядом:
Помимо этого, для виртуальных машин можно задавать кастомные профили, чтобы более точно рассчитывать емкости в различных сценариях (см. выше).
Еще одна полезная функция vROPs 7.5 - возможность обнаруживать бесхозные VMDK-диски, болтающиеся отдельно от виртуальных машин. У этих дисков, по крайней мере, можно вернуть выделенное место с нулевыми блоками в сторону дискового массива, что даст вам еще некоторое количество свободного места.
Также в этой категории фичей особо можно отметить комплексную и глубокую "what-if" аналитику, которая позволяет планировать, в том числе, гиперконвергентную инфраструктуру, а также миграции рабочих нагрузок в облака AWS, Azure и другие:
Особо нужно отметить возможность сравнения стоимости содержания онпремизной инфраструктуры в собственном датацентре с облачными инфраструктурами Amazon, Google и другими в виде карточек:
3. Функции интеллектуального исправления конфигураций виртуальной инфраструктуры.
Здесь появилась важная новая возможность - мониторинг ОС и приложений внутри виртуальных машин. Это дает много новых инструментов для изучения поведения и производительности инфраструктуры со стороны приложений.
vROPs автоматически обнаруживает приложения в вашей виртуальной инфраструктуре и добавляет их к себе в консоль. Далее администратор может решить - стоит ли их мониторить здесь в vROPs или нужно передать их на сторону решения Wavefront от VMware, заточенного под эти задачи.
Оба этих метода мониторинга используют агенты Telegraf для сбора метрик и отчетности:
В vROPs 7.5 появилось новое представление - виджет отношений объектов. Он показывает высокоуровневую связь приложения с компонентами датацентра. В рамках этого представления можно понять, связана ли проблема с самим приложением, или она вызвана нижележащими компонентами инфраструктуры. В рамках одного представления поддерживается до 10 000 объектов:
Также теперь появилась возможность построить графики корреляции метрик различного характера для этих объектов, чтобы выявить корень проблемы низкой производительности на различных уровнях:
Ну и последняя, но очень важная новая фича в этой категории - двунаправленная интеграция с ServiceNow, что позволяет встроить vROPs и его метрики в рабочие процессы системы ServiceNow.
4. Интегрированный комплаенс.
Это новое направление функционала vROPs. Оно подразумевает выполнение процедур по обеспечению соответствия таким отраслевым стандартам, как PCI, HIPAA, DISA, ISO, CIS и FISMA. Помимо готовых шаблонов, вы сможете использовать кастомные наборы политик, для которых можно проводить приведение инфраструктуры в соответствие и мониторинг отклонений от заданного уровня. Для всего этого уже из коробки есть готовые рабочие процессы (Workflows) и интеграция с решением VMware vRealize Orchestrator.
Также надо отметить, что vROPs без проблем может мониторить облачную инфраструктуру VMware Cloud on AWS - для него это всего лишь еще один экземпляр окружения vCenter.
На данный момент продукт VMware vRealize Operations 7.5 еще недоступен для загрузки, новости можно отслеживать на его основной странице.
На днях компания VMware анонсировала доступность новой версии своей флагманской платформы виртуализации VMware vSphere 6.7 Update 2. Напомним, что предыдущее обновление VMware vSphere 6.7 Update 1 вышло в августе прошлого года.
Давайте посмотрим, что с тех появилось нового:
1. Новое издание VMware vSphere ROBO Enterprise.
Теперь в издании для ROBO-сценариев (Remote or Branch Offices) появились следующие возможности уровня Enterprise:
DRS в режиме обслуживания (Maintenance Mode):
Доступно только для vSphere ROBO Enterprise.
Может быть использовано для автоматического перемещения ВМ между хостами (и обратно по окончании процесса). Для этого автоматически создаются правила VM-Host affinity (отслеживается, куда машины уехали перед миграцией, потом запомненные правила применяются - и машины приезжают обратно, где и были изначально).
Утилита PSC Converge tool теперь доступна в графическом интерфейсе. Об этом средстве мы писали вот тут, оно позволяет смигрировать внешний сервер Platform Services Controller (PSC) на простой в управлении embedded PSC.
Она дает следующие возможности:
Конвертация топологии external PSC в Embedded через GUI.
Можно выполнить шаги по выводу внешнего PSC из эксплуатации (Decomission).
Все это доступно в разделе System Configuration тонкого клиента vSphere Client (на базе HTML5).
Можно посмотреть текущую топологию PSC и vCenter в графическом или табличном виде.
В следующих релизах будет невозможно развернуть внешний PSC, поэтому с него надо уходить.
3. Улучшения резервного копирования и восстановления vCenter Server.
Здесь появилось 2 главных улучшения:
Новые протоколы, посредством которых вы можете сделать бэкап vCSA - NFS v3 и SMB.
Нотификации и алармы на успешное и неуспешное завершение задач РК. Эти алармы можно настроить подобно обычным алармам vSphere (послать email, SNMP trap или выполнить сценарий в случае успеха или неудачи).
4. Новые алармы и категории для vSphere Health.
Опция acknowledgement (заглушить) для алармов vSphere health (как и для обычных алармов).
Новые категории теперь включают в себя:
Online Availability
Compute
Network
Storage
Эти новые категории позволяют более органично охватывать проблемы сервера vCenter и упрощать управление им.
5. Улучшения Content Library.
Функции синхронизации шаблонов VM Template (VMTX).
Шаблоны виртуальных машин теперь можно синхронизировать в автоматическом режиме, как между приватными облаками с серверами vCenter, так и с публичным облаком VMware Cloud on AWS.
6. Улучшения vSphere Client.
В vSphere Client появилась возможность "code capture" (о ней мы писали вот тут). Теперь она позволяет вести запись пользовательских действий, которые были сделаны в рамках текущей сессии через vCenter API, и генерация соответствующего скрипта. Далее его можно использовать для автоматизации задач в инфраструктуре vSphere.
Функции API Explorer (доступны в разделе "Developer Center") - простая утилита по поиску в API, которая позволяет найти основные API-вызовы, включая примеры и возможность их тестирования.
7. Улучшения vSphere Update Manager.
Улучшения пользовательского интерфейса, включая функции attach, compliance check и remediation (все можно делать на одном экране).
Теперь можно привязать и сделать remediate для нескольких бейслайнов в рамках одной операции.
Во время remediation можно отключать removable-девайсы от виртуальных машин, включать Quickboot и пропускать проверки vSAN HealthCheck.
8. Улучшения VMware Tools.
Для Windows Server 2016 тулзы теперь обновляются через Windows update, а значит, что их обновления включены в общий цикл апдейта системы.
Версия VMware tools for Linux (в формате .TAR) больше не развивается, начиная с VMware Tools 10.3.10, так как OpenVM Tools доступны через любой package update manager.
9. Фикс Host Profiles.
Теперь при применении профиля хоста к ESXi не удаляется интерфейс VMK0, как это было раньше.
10. Улучшения безопасности.
Windows Server 2019 и RHEL 8 теперь полностью поддерживаются в vSphere 6.7 Update 2.
Можно применять лимиты для Password History и Reuse.
Теперь логируются дополнительные события SSO.
Улучшения ESXi certification API.
Генерация запроса vCenter Server CSR доступна через GUI клиента.
vSphere 6.7 Update 2 лучше обрабатывает уязвимости CPU за счет нового планировщика.
Доступна сертификация NIAP.
11. Улучшения производительности.
Поддержка 40 & 100Gb Ethernet и RDMA
Новая версия Virtual Hardware 15 (VM Compatibility):
До 256 vCPU на виртуальную машину
До 6 ТБ RAM на ВМ
Поддержка SAP HANA
На момент написания статьи обновление VMware vSphere 6.7 Update 2 было еще недоступно. Мы обновим пост, когда обновление можно будет скачать.
Интересный проект доступен на GitHub - набор скриптов vDocumentation, который позволяет через PowerCLI сгенерировать отчетность в форматах CSV или XLS, посвященную различным сторонам виртуальной инфраструктуры (сеть, хосты, кластеры vSAN и т.п.). Демо этого средства было представлено на VMworld 2017:
Проект vDocumentation на текущий момент содержит 8 сценариев, каждый из который позволяет подготовить соответствующий отчет:
Get-ESXInventory - генерация всех аппаратных параметров хостов ESXi и их конфигураций.
Get-ESXIODevice - документирование конфигурации карт HBA, NIC и других PCIe-устройств, включая PCI ID, MAC, версии микрокода и драйверов.
Get-ESXNetworking - конфигурация сетевого окружения, включая детали сетевых адаптеров, коммутаторов vSwitches, параметры VMKernel и прочее.
Get-ESXStorage - параметры инфраструктуры хранилищ, включая детали iSCSI, FibreChannel, параметры датасторов и механизма доступа по нескольким путям (Multipathing).
Get-ESXPatching - информация об установленных обновлениях, времени их выхода и ссылки на соответствующие статьи KB.
Get-vSANInfo - документирование кластеров vSAN.
Get-ESXSpeculativeExecution - статус серверов ESXi в отношении уязвимостей Spectre и Meltdown.
Get-VMSpeculativeExecution - статус виртуальных машин в отношении уязвимостей Spectre и Meltdown.
Например, вот отчет о статусе хостов ESXi в отношении уязвимостей Spectre и Meltdown:
По умолчанию данные выводятся в терминал, но можно их перенаправить с CSV или XLS файлы.
Загрузить сценарии vDocumentation можно по этой ссылке.
Многие из вас знают, что у компании StarWind есть продукт Virtual SAN для построения программных отказоустойчивых хранилищ, являющийся на сегодняшний день одним из лидеров отрасли. Но самое интересное, что у StarWind есть и программно-аппаратный комплекс HyperConverged Appliance (HCA), на базе которого можно строить недорогую инфраструктуру виртуализации и хранения для небольших компаний (а также для сценариев ROBO - remote or brunch offices, то есть филиалов).
Политика ограничения виртуальных машин по операциям ввода-вывода (IOPS limits storage policy rule) позволяет ограничить виртуальную машину в кластере VMware vSAN в плане потребления ресурсов хранилища. Она применяется для VMDK дисков машин и, как правило, используется в ситуациях, когда нужно изолировать "прожорливого соседа" - то есть виртуальную машину, которая может начать потреблять несоразмерно много ресурсов хранилища по вводу-выводу на хосте ESXi, вызывая большие задержки (latency) у других машин этого хоста. При этом такая машина на данном хосте может быть далеко не самой важной.
Ограничение машины по IOPS имеет некоторые особенности. Размер операции ввода-вывода может варьироваться в диапазоне от 4 КБ до 1 МБ. Это означает, что самая большая операция может быть в 256 больше по объему самой маленькой. Поэтому при применении ограничения по IOPS решение vSAN использует так называемые "взвешенные IOPS", определяемые квантами по 32 КБ (об этом мы писали вот тут). При размере операции до 32 КБ планировщик vSAN считает ее как одну операцию, 32-64 КБ - как две, и так далее.
Это позволяет при визуализации метрик производительности нормализовать поток данных к хранилищу и управлять им при импорте настроек из механизма SIOC, который применяется к виртуальным машинам не в кластере vSAN. Надо отметить, что vSAN имеет собственную механику регуляции I/O и собственный планировщик, поэтому механизм SIOC не применяется к таким хранилищам.
Соответственно, давайте взглянем на графики операций ввода-вывода на вкладке Monitor->vSAN->Performance:
На нижнем графике (Virtual SCSI IOPS) мы видим число реальных операций ввода-вывода, независимо от их размера, а на верхнем - уже нормализованные IOPS и лимиты, применяемые к ВМ.
IOPS limit применяется только ко всему потоку ввода-вывода гостевой ОС машины (то есть ярус хранения, ярус кэширования), но не затрагивает операции с самим диском VMDK и его swap-файлами, например, репликация машины, SVmotion (миграция хранилища), XVmotion (миграция машин без общего хранилища) и клонирование ВМ.
Если машина достигает лимита по IOPS, планировщик vSAN для нее начинает откладывать операции ввода-вывода до завершения транзакции таким образом, чтобы они не превышали заданного лимита по нормализованному числу операций в секунду. Это все приводит к тому, что задержки исполнения данных операций (latency) существенно возрастают, что видно на графике Virtual SCSI Latency:
Здесь мы видим, что при достижении лимита 200 IOPS latency возросла до 580 мс, а при достижении 400 мс - где-то до 230-290 мс. Эти задержки, возникающие на уровне виртуальной машины, проявляют себя также и на уровне всего хоста, кластера и даже приложений, таких как vRealize Operations.
Этот важный фактор надо учитывать, когда вы ищете причину высокой latency, потому что механизм vSAN Performance Service не делает различий, возникли ли задержки из-за проблем с производительностью, или они являются результатом применения IOPS limits.
Интересно также, что применение IOPS limits storage policy rule к одной виртуальной машине может повлиять и на другую ВМ, к которой не применяется этого правила. Например, вы копируете файлы одной ВМ на вторую (и обратно), у которой есть IOPS limit. При достижении этого лимита, очевидно, происходит уменьшение числа IOPS не только у целевой ВМ, но и у источника, так как происходит уменьшение совокупного числа операций ввода-вывода на передачу файлов.
При этом у исходной ВМ в этом случае не будет существенного изменения latency, так как ее операции откладываться не будут (посмотрите на левый и правый графики этой ВМ):
К сожалению, описанные эффекты влияния на производительность ВМ не всегда просто идентифицировать, поэтому нужно всегда осторожно выставлять IOPS limit и всегда четко его документировать в описании конфигурации виртуальной инфраструктуры.
На днях компания VMware выпустила первое в этом году обновление своего фреймворка для управления виртуальной инфраструктурой PowerCLI 11.2.0. Напомним, что о прошлом обновлении - PowerCLI 11.1 - мы писали вот тут.
Давайте посмотрим, что нового появилось в обновлении PowerCLI 11.2:
Новый модуль для VMware HCX.
Решение VMware HCX - это набор утилит для управления гибридной средой, состоящей из ресурсов облака и онпремизной инфраструктуры. С помощью нового модуля для HCX вы можете выполнять миграции vMotion (в том числе, в пакетном режиме), включая очень большие ВМ, поддерживать жизненный цикл ВМ, а также защищать данные в целях катастрофоустойчивости, дублирование которых происходит на уровне площадок.
Всего здесь было добавлено 20 командлетов, решающих подобные проблемы. Более подробно о них можно почитать вот тут.
Добавлена поддержка служб NSX-T Policy services.
Решение NSX-T позволяет абстрагировать управление сетями и безопасностью сетевой инфраструктуры датацентра с помощью политик. Также NSX-T применяется для обеспечения доступности сервисов.
За счет нового командлета Get-NsxtPolicyService теперь можно автоматизировать большинство операций по управлению политиками, используя стандартный API. Командлет совместим с недавно анонсированной новой версией решения NSX-T 2.4.
Добавлена поддержка служб OAuth для соединения с vCenter.
В плане поддержки инфраструктуры безопасности VMware Cloud on AWS, в новой версии PowerCLI был существенно доработан механизм аутентификации. Теперь появилось 2 новых командлета для аутентификации и обновился существующий командлет для поддержки механизма OAuth2.
Для облачного модуля VMC появился специальный командлет New-VcsOAuthSecurityContext, который позволяет использовать контекст безопасности сессии работы пользователя на базе токена VMware Cloud on AWS
Для модуля Core появился командлет New-VISamlSecurityContext, который позволяет получить и использовать контекст безопасности OAuth и транслировать его в контекст SAML2, который уже используется для соединения с vCenter (Connect-VIServer) и прочего.
На данный момент эта функциональность работает только в GovCloud
для правительственного облака.
Поддержка Opaque Networks (сетей виртуальной инфраструктуры, которые управляются извне решения vSphere, например, OpenStack).
С помощью командлетов Set-NetworkAdapter и Import-VApp можно организовать поддержку сетей Opaque Networks. Более подробно об этом можно почитать в статье Configuring VMs For Opaque Networks.
Обновленные командлеты модуля
Storage.
Командлет Get-VsanSpaceUsage теперь имеет новый параметр, который позволяет возвращать результаты по определенной политике хранилищ.
Также в командлет добавили несколько параметров от командлета Set-VsanClusterConfiguration (CustomizedSwapObjectEnabled, GuestTrimUnmap, LargeClusterSupported, ObjectRepairTimerMinutes и SiteReadLocalityEnabled). Обновился и командлет Test-VsanNetworkPerformance, который теперь имеет параметр DurationInSecond (с помощью него можно регулировать время тестирования производительности хранилища).
Посмотреть историю изменений VMware PowerCLI 11.2.0 можно по этой ссылке. Документация доступна тут. Если вы что-то забыли, то всегда можно воспользоваться справочником по PowerCLI - VMware PowerCLI 11.2.0 Cmdlet Reference.
Напомним, что обновить актуальную версию PowerCLI на обновление версии 11.2, можно использовать команду:
Еще на конференции VMworld 2018 компания VMware анонсировала инициативу по использованию в качестве инфраструктуры блочных хранилищ сервисов Amazon Elastic Block Store (называлось это EBS backed vSAN). Несколько позднее это оформилось в виде технологии VMware Elastic vSAN, которая будет доступна в ближайшем будущем.
Изначально сервис VMware vCloud on AWS, предоставляющий виртуальную инфраструктуру виртуальных машин в аренду из облака Amazon, использовал инстансы I3.Metal в облаке EC2. Но для некоторых пользователей, имеющих существенные объемы данных, масштабирование за счет только увеличения числа инстансов в кластере не подходило - столько вычислительных ресурсов не требовалось, а требования к объему дискового пространства упирались в физические возможности хостов (10 ТБ на инстанс I3.Metal).
Поэтому VMware предложила другое решение - сделать хранилище инфраструктуры vSphere в облаке внешним, взяв за основу инстанс R5.Metal и подключив к нему масштабируемое облачное хранилище Elastic Block Store (EBS):
При создании бездисковых хостов Elastic vSAN пользователь указывает объем хранилища на хост (от 15 до 35 ТБ с шагом 5 ТБ), который требуется для кластера виртуальной инфраструктуры хранилищ, и она достраивается из компонентов блочного пространства EBS.
Когда технология Elastic vSAN включена, каждый хост имеет 3 дисковых группы, а каждая группа имеет от 3 до 7 дисков полезной емкости (помимо кэш-дисков):
Для такой конфигурации, чтобы обеспечить политику Failures to Tolerate = 1, рекомендуется включать RAID-5 (для этого нужно минимально 4 узла) и настройку "Compression only mode" для экономии дискового пространства. В этом случае не потребуется включать дедупликацию (она и недоступна в целях обеспечения высокой производительности), компрессии будет достаточно.
Все это дает возможность использовать меньшее число хостов, чем в случае с I3.Metal, что особенно полезно для нагрузок, которым не требуется много вычислительных ресурсов, но требуется много хранилища (например, файловые помойки). Это дает 140 ТБ сырой емкости на 4-узловой кластер и 560 ТБ на 16 узлов. Этого должно хватить практически всем.
Также при использовании I3.Metal или онпремизного кластера vSAN, в ситуации с эвакуацией виртуальных машин хоста для целей обслуживания, приходилось переносить все его содержимое на другой инстанс, что занимало значительное время. Для бездисковых инстансов R5.Metal получается так, что в случае выведения хоста из эксплуатации его хранилища на стороне EBS можно за небольшое время просто переподключить к новому инстансу - это и будет миграцией хоста без физического переноса данных.
Помимо упрощения обслуживания, такая архитектура дает еще несколько возможностей по построению гибких решений, в которых можно внедрять новые фичи Elastic vSAN быстрее, чем в онпремизных решениях. Заявлено, что новая архитектура будет выдавать до 10K IOPS на устройство/том (вне зависимости от его размера, минимальный размер 3 ТБ) и пропускную способность до 160 Мбит/с.
Гостевой пост нашего партнера, IaaS-провайдера - компании ИТ-ГРАД. Технология vSAN является одним из элементов гиперконвергентной системы от VMware, которую активно используют облачные провайдеры для создания отказоустойчивой, гибкой и масштабируемой услуги по аренде виртуальной инфраструктуры (IaaS). Но прежде чем приступить к обсуждению данной технологии...
Как вы знаете, мы часто пишем о лучшем продукте для создания отказоустойчивых хранилищ под виртуализацию StarWind Virtual SAN. На днях это решение было обновлено - вышел StarWind Virtual SAN Version 8 Build 12767. Надо отметить, что это первый релиз продукта в этом году. Прошлый состоялся в ноябре 2018 года.
Давайте посмотрим на новые функции и багофиксы StarWind Virtual SAN V8:
1. Основные возможности:
Поддержка Signature Version 2 для S3-совместимых репликаторов Cloud Storage replicators.
Запланированное удаление файлов с виртуального ленточного устройства на стороне публичного облака.
Поддержка решения Azure Government storage для продукта StarWind VTL.
Улучшена стабильность соединений и починены возможные маловероятные проблемы разрывов во время логина по протоколу iSCSI.
2. Исправления ошибок, пофикшены проблемы в:
Механизме SMI-S.
Сервисном модуле.
Модуле репликации при получении неожиданных ответов от целевого сервера (System.Net.Http.HttpRequestException).
Процессе построения списка репликаторов.
Клиенте при переведения узла в режим обслуживания и изменении статуса синхронизации.
Процессе переустановки NVMf Target.
Загрузить новый апдейт StarWind Virtual SAN V8 можно по этой ссылке. Release Notes доступны тут.
На сайте VMware появился полезнейший технический документ, даже практически книга об использовании фреймворка PowerCLI для инфраструктуры отказоустойчивых кластеров хранилищ - VMware PowerCLI Cookbook for vSAN.
На 88 страницах авторы (Jase McCarty и его коллеги), работавшие с PowerCLI/PowerShell для управления инфраструктурой vSAN более 4 лет, рассказывают обо всех аспектах управления хранилищами с помощью сценариев.
Книга дает "рецепты" в следующих сферах:
Конфигурация решения vSAN
Операционные ежедневные задачи
Функции отчетности о текущем состоянии среды
В книге приведено большое количество примеров, причем авторы сначала показывают, как задачу можно выполнить в графическом интерфейсе, а затем разбирают кейс по автоматизации данных действий с помощью PowerCLI.
Кстати, это только первый релиз книги (1.0), со временем она будет дополняться. Скачать VMware PowerCLI Cookbook for vSAN можно по этой ссылке.
Продолжаем рассказывать о новых возможностях следующей версии решения для создания отказоустойчивых кластеров хранилищ VMware vSAN. Напомним прошлые статьи этого цикла:
В этой заметке мы поговорим еще об одной возможности, касающейся способов хранения данных в кластере - vSAN Scalable File Services. Как вы знаете, vSAN предоставляет пространство хранения для виртуальных машин и дисков VMDK (в том числе дисков FCD), а также дает возможность использовать логические тома по протоколу iSCSI.
Так вот, функциональность vSAN File Services дает возможность использовать дисковое пространство по протоколам NFS и SMB, что дает возможность раздавать ресурсы кластера через эти протоколы для внешних потребителей без необходимости создания отдельных машин для файловых помоек, например, с Windows Server на борту.
Также файловые шары NFS/SMB будут находиться под управлением политик Storage Policy Based Management (SPBM), а также будут работать в растянутых кластерах vSAN, что позволит рассматривать их как часть общего пространства vSAN в распределенных датацентрах. С помощью SPBM можно будет использовать такие сервисы, как FTT (переносимость отказов хостов ESXi), шифрование и развертывание хранилищ, растущих по мере наполнения данными (thin provisioning).
Механизм файлового шаринга работает на базе файловой системы vSAN Distributed File System (vDFS), которая позволяет агрегировать дисковые объекты vSAN для предоставления пространства хранения, а сервисы управления предоставляет платформа Storage Services Platform.
С точки зрения интерфейса создания и экспорта файловых шар, эти сервисы будет представлять vCenter и vSphere Client (там же будут назначаться права доступа, квоты и прочее).
Сервисы vSAN FIle Server (в демо они были показаны как виртуальные модули, Virtual Appliances) будут реализовывать экспорт папок. Кроме того, они будут иметь механизм обнаружения сбоев и перезапуска этих машин на других серверах:
Такая архитектура также позволит просто апгрейдить хост-серверы ESXi, не останавливая предоставляемые файловые сервисы.
Кроме того, vSAN File Services будут предоставлять свои ресурсы на уровне файлов для контейнеров на платформе Kubernetes:
Также вы можете посмотреть 2 интересных видеопрезентации с VMworld 2018 и VMworld Europe 2018, посвященных vSAN Scalable File Services:
HCI3041BE – VMworld Europe 2018 session: Introducing Scalable File Storage on vSAN with Native File Services. Также к этому видео прилагается презентация в формате PDF.
HCI3728KE – VMworld Europe 2018 session: Innovating Beyond HCI: How VMware is Driving the Next Data Center Revolution.
Подписаться на бету следующей версии продукта VMware vSAN можно по этой ссылке. Ожидается, что первая реализация будет поддерживать NFS 4.1 с аутентификацией в AD, шары SMB, Kerberos, протокол OpenLDAP и механизм vSAN Data Protection.
Во время прошедшего летом прошлого года VMworld 2018 компания VMware представила много интересных новостей на тему будущей функциональности продукта для создания отказоустойчивых хранилищ VMware vSAN. Например, мы писали о технологии Native Data Protection (это часть 1 этого цикла статей), а сегодня поговорим о сервисах хранения.
Диски First Class Disk (FCD)
Для vSAN уже есть поддержка так называемых дисков First Class Disk (FCD), они же называются Improved Virtual Disk (IVDs) или Managed Virtual Disk. Они были придуманы для того, чтобы управлять сервисами, заключенными в VMDK-диски, но не требующими виртуальных машин для своего постоянного существования.
К таким относятся, например, тома VMware App Volumes, на которых размещаются приложения, и которые присоединяются к виртуальным машинам во время работы пользователя с основной машиной. Также к таким дискам относятся хранилища для cloud native приложений и приложений в контейнерах, например, работающих через Docker Plugin и драйвер Kubernetes (он называется vSphere Cloud Provider) для создания постоянных (persistent) томов контейнеров Docker. Этим всем занимается опенсорсный проект Project Hatchway от VMware.
Работать с такими дисками очень неудобно - для них приходится создавать отдельную виртуальную машину к которой цепляется этот диск, а потом, по завершении какого-либо процесса, отсоединяется, и машина уничтожается. Так, например, работает средство для резервного копирования App Volumes Backup Utility, о котором мы писали вот тут. При бэкапе этих дисков создается временная Backup VM:
Второй пример - инфраструктура vSphere Integrated OpenStack (VIO), где для того, чтобы включить хранилище Cinder (OpenStack Block Storage) для потребления дисковой емкости VMDK-файлов, нужно создавать вспомогательные Shadow VM для каждого тома Cinder, к которому цепляется VMDK-диск.
Все это неудобно, поэтому и придумали формат дисков First Class Disk (FCD), которому не требуются временные виртуальные машины и которые реализуют сервисы, необходимые приложениям или другим сервисам. Например, бэкап таких дисков можно делать без создания вспомогательной ВМ.
Информация о дисках FCD хранится в каталоге базы данных vCenter. Она содержит глобальные уникальные идентификаторы UUID и имена дисков. UUID позволяет переместить диск в любое место без конфликтов.
В vSphere 6.7 это ограничение было снято, но остались еще некоторые требования - FCD нужно было восстанавливать с тем же UUID и на тот же датастор, откуда он был взят. Также еще одним ограничением была невозможность API отслеживать блоки, изменившиеся с момента последней резервной копии, то есть невозможность инкрементального резервного копирования (подробнее здесь).
Ну а в vSphere 6.7 Update 1 была анонсирована ограниченная поддержка FCD для vSAN. Пока поддержка предоставляется еще с ограничениями для служб health service и capacity monitoring. Однако при этом пользователи Kubernetes могут использовать диски FCD на хранилищах vSAN для персистентных хранилищ контейнеров, и в то же самое время тома vSAN могут использоваться для виртуальных машин:
Подписаться на бету следующей версии продукта VMware vSAN можно по этой ссылке.
В следующей статье мы расскажем про Cloud Native Storage (CNS) и vSAN File Services.
Вебинар пройдет 7 февраля в 22-00 по московскому времени.
На мероприятии Алексей расскажет обо всех нюансах развертывания географически "растянутого" кластера для виртуальных машин в части хранилищ. В рамках вебинара будет рассказано, как построить такой кластер, каким аспектам отказоустойчивости (HA) уделить особое внимание, и какие меры необходимо принять в целях обеспечения безопасности такой среды. Ну и, конечно же, Алексей расскажет о том, как предотвратить ситуацию Split Brain в таких сценариях.
Недавно компания VMware выпустила обновление контент-пака решения Log Insight для инфраструктуры кластеров хранилищ - vRealize Log Insight Content Pack for vSAN. Новая версия 2.1 представляет функции, которые соотносятся с новыми возможностями дэшбордов в Log Insight и механизма алертинга.
Напомним, что продукт позволяет получить следующие возможности в рамках функционала Log Insight:
Быстрая идентификация проблем за счет специализированных дэшбордов, отображающих состояние кластеров vSAN.
Возможность использования различных комплексных фильтров для поиска нужной информации в логах vSAN.
Визуализация необходимых параметров и запросов, что позволяет определить аномалии в различных аспектах инфраструктуры.
Мощный движок алертинга, который позволяет мониторить логи vSAN на предмет возможных проблем и оповещать администраторов.
Помощь администраторам - каждый виджет включает информацию о его назначении со ссылками на документацию и базу знаний VMware, что позволяет понять характер и назначение отображаемых данных.
Контент-паки позволяют решению Log Insight более точно идентифицировать события именно от конкретного решения (в данном случае, VMware vSAN) и быстро находить корневую причину проблем в инфраструктуре.
В новом контент-паке были скорректированы виджеты "Maximum memory congestion reached" и "Maximum SSD congestion reached", чтобы соответствовать пороговым значениям и алертам, представленным в vSAN health service для сервера vCenter.
Ассоциированные с ними алерты по нагрузке на память и носители SSD также были доработаны. Включением/выключением алертов можно управлять прямо из дэшборда Log Insight:
Также из списка алертов убрали "Operations took too long" и "Object component state changes – Absent.", потому что они слишком часто срабатывали при нормальной, в общем-то, эксплуатации виртуальной инфраструктуры и кластера vSAN.
Обновить контент-пак вы можете прямо из консоли решения Log Insight (он подходит для Log Insight версий 4.0-4.7 и работает для vSAN версий 6.0 - 6.7 U1):
Либо можно скачать VMware vRealize Log Insight Content Pack for vSAN по этой ссылке.
Компания StarWind Software, известная своим лидирующим решением Virtual SAN для создания отказоустойчивых хранилищ для виртуальных машин VMware vSphere и Microsoft Hyper-V, продолжает выпускать полезные бесплатные утилиты. Например, напомним, что ранее мы писали о StarWind Deduplication Analyzer.
На этот раз StarWind выпустила средства для бенчмаркинга RDMA-соединений между серверными системами, которые используются для прямого доступа к памяти между хостами в рамках кластера.
Для тестирования RDMA-соединений есть различные утилиты, но они разработаны для различных операционных систем, и их трудно сопрягать между собой. Также они показывают либо задержки (latency), либо пропускную способность (bandwidth), а rPerf выводит обе этих метрики. Ну и, конечно же, ее можно использовать для Windows и Linux одновременно.
Давайте посмотрим, как это работает. Для тестирования вам понадобятся системы Windows 7 / Windows Server 2012 или более поздние, а если вы хотите использовать Linux - то CentOS 7 или
Ubuntu.
Сетевой адаптер (NIC) должен иметь настроенные механизмы Network Direct Provider v1 и lossless RDMA. Для адаптеров нужны последние версии драйверов, так как стандартный драйвер Windows не поддерживает ND API. Для систем Linux нужны драйвера с поддержкой RDMA и RoCE.